El pronóstico de series de tiempo es clave en múltiples ámbitos
Crecimiento exponencial en la cantidad de datos disponibles
Los métodos actuales de pronóstico requieren amplios conocimientos, son difíciles de automatizar y/o son demandantes computacionalmente
Capaces de seleccionar de forma automática el mejor ajuste
No requieren entrenamiento previo ni conocimientos especializados
Basados en arquitecturas transformer
¿Qué tan bien se desempeñan?
Comparar la precisión, eficiencia y facilidad de pronosticar series de tiempo
Modelos estadísticos tradicionales
Modelos de aprendizaje automatizado
Modelos de aprendizaje profundo
Modelos fundacionales preentrenados
Definir y aplicar métricas de evaluación
MAPE
Interval score
Serie de tiempo
Conjunto de observaciones \(\{z_1, z_2, ..., z_t, ..., z_n\}\) cuantitativas ordenadas en el tiempo.
Componentes de una serie
Tendencia
Estacionalidad
Residuos
Tendencia
Estacionalidad
Residuos
Media constante en el tiempo
Variancia constante en el tiempo
Correlación entre observaciones dependiente únicamente de la distancia en el tiempo
Media constante en el tiempo
Variancia constante en el tiempo
Correlación entre observaciones dependiente únicamente de la distancia en el tiempo
Número de atenciones en guardia por patologías respiratorias en el hospital en el Hospital de Niños Víctor J. Vilela de la ciudad de Rosario.
Número trabajadores asalariados en el rubro de la enseñanza privada en Argentina.
Temperatura (Cº) por hora en la ciudad de Rosario.
Información provista por la Dirección General de Estadística de la Municipalidad de Rosario.
Datos extraídos del informe Situación y evolución del Trabajo Registrado de la Secretaría de Trabajo, Empleo y Seguridad Social
Datos obtenidos a partir de la página del Servicio Meteorológico Nacional
Datos obtenidos a partir de la página del Servicio Meteorológico Nacional
ARIMA(p,d,q)
\[ \psi_p(B)(1-B)^dz_t = \theta_0 + \theta_q(B)\alpha_t \]
AutoRegressive Integrated Moving Average
\[ \psi_p(B)(1-B)^dz_t = \theta_0 + \theta_q(B)\alpha_t \]
Invertibilidad
Una serie es invertible si se puede escribir cada observación como una función de las observaciones pasadas más un error aleatorio.
Funciones de autocorrelación y autocorrelación parcial
Ejemplo proceso AR(1)
Ejemplo proceso MA(1)
Limitaciones
Los modelos ARIMA no tienen en cuenta los posibles patrones estacionales de una serie
Modelo \(SARIMA(p,d,q)(P,D,Q)_s\)
Propiedades de un buen modelo \(SARIMA\):
- Incorrelacionados
- Distribuídos aproximadamente de forma normal
- Variancia y media constantes
Aprendizaje automatizado (machine learning)
Rama de la inteligencia artificial que permite a las computadoras aprender de los datos y realizar tareas de forma autónoma.
Métodos de ensamblaje
Buscan mejorar la robustez y precisión de las predicciones combinando los resultados de varios estimadores base.
Diferencias entre eXtreme Gradient Boosting (XGBoost) y Light Gradient-Boosting Machine (LightGBM)
| XGBoost | LightGBM | |
|---|---|---|
| Método de partición | Exacto | GOSS |
| Crecimiento del árbol | Por nivel | Por hojas |
| Tratamiento de características correlacionadas | Ninguno | EFB |
Problemas
No generan pronósticos probabilísticos de forma directa
Ensemble Batch Prediction Intervals (EnbPI)
Seleccionar un modelo por ensamblado.
Generar B muestras bootstrap por bloques.
Ajustar un modelo sobre cada una de las B muestras.
Calcular el residuo de cada observación utilizando aquellos modelos que no la incluyeron.
Obtener las predicciones puntuales promediando los resultados de los B modelos.
Construir los intervalos de predicción usando los cuantiles empíricos de los residuos.
Aprendizaje profundo (deep learning)
Conjunto de algoritmos que modelan niveles altos de abstracción usando múltiples capas de procesamiento, con complejas estructuras o compuestas de varias transformaciones no lineales.
Tipos de redes neuronales
Feedforward Neural Networks (FNN)
Recurrent Neural Networks (RNN)
Convolutional Neural Networks (CNN)
Entre otras…
Limitaciones de las RNNs
Tienen dificultades para capturar dependencias de largo plazo. Causas: Desvanecimiento o explosión del gradiente.
Puerta de guardado
Se encarga de decidir que proporción de la información a largo plazo mantener en la neurona de memoria en cada iteración.
Puerta de entrada
Controla que información añadir a la neurona de memoria. Propone un nuevo valor para la información a largo plazo y decide que proporción sumar al valor actual.
Puerta de salida
Se encarga de extraer la información más importante del estado actual de la neurona para usar como salida o valor para la próxima iteración de la red.
Fundacional: Entrenado en grandes conjuntos de datos
Preentrenado: Los parámetros del modelo fueron previamente calculados
Modelos basados en arquitecturas transformer
Originalmente creados con el propósito de generar texto:
ChatGPT
BERT
Claude
Para pronosticar series de tiempo:
TimeGPT
Chronos
Capaces de seleccionar de forma automática el mejor ajuste
No requieren entrenamiento previo ni conocimientos especializados
Basados en arquitecturas transformer
¿Qué tan bien se desempeñan?
Capaces de seleccionar de forma automática el mejor ajuste
No requieren entrenamiento previo ni conocimientos especializados
Basados en arquitecturas transformer
¿Qué tan bien se desempeñan?
Atención
Mecanismo que captura dependencias y relaciones en la secuencias de valores que se alimentan al modelo, logrando poner en contexto a cada observación. Presentado en la publicación Attention is all you need de Google en 2017.
\[ \text{Atencion}(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V \]
\(\vec E\): Vector de entrada
\(W_Q\): Matriz de características (\(\vec E \times W_Q = \vec Q\))
\(W_K\): Matriz de relaciones (\(\vec E \times W_K = \vec K\))
\(W_V\): Matriz de valores (\(\vec E \times W_V = \vec V\))
Matrices iniciadas aleatoriamente y ajustadas en el preentrenado